Between automatic and manual encoding.
Pinche, A.; Christensen, K.; and Gabay, S.
In
TEI 2022 conference : Text as data, Newcastle, United Kingdom, September 2022.
Paper
doi
link
bibtex
abstract
@inproceedings{pinche2022,
address = {Newcastle, United Kingdom},
title = {Between automatic and manual encoding},
url = {https://hal.science/hal-03780302},
doi = {10.5281/zenodo.7092214},
abstract = {Cultural heritage institutions today aim to digitise their collections of prints and
manuscripts (Bermès 2020) and are generating more and more digital images (Gray
2009). To enrich these images, many institutions work with standardised formats such as
IIIF, preserving as much of the source’s information as possible. To take full advantage of
textual documents, an image alone is not enough. Thanks to automatic text recognition
technology, it is now possible to extract images’ content on a large scale. The TEI seems
to provide the perfect format to capture both an image’s formal and textual data (Janès
et al. 2021). However, this poses a problem. To ensure compatibility with a range of
use cases, TEI XML files must guarantee IIIF or RDF exports and therefore must be
based on strict data structures that can be automated. But a rigid structure contradicts
the basic principles of philology, which require maximum flexibility to cope with various
situations. The solution proposed by the Gallic(orpor)a project1 attempted to deal with such a
contradiction, focusing on French historical documents produced between the 15th and
the 18th c. It aims to enrich the digital facsimiles distributed by the French National
Library (BnF).},
urldate = {2024-01-03},
booktitle = {{TEI} 2022 conference : {Text} as data},
author = {Pinche, Ariane and Christensen, Kelly and Gabay, Simon},
month = sep,
year = {2022},
keywords = {HTR, Pipeline, TEI},
}
Cultural heritage institutions today aim to digitise their collections of prints and manuscripts (Bermès 2020) and are generating more and more digital images (Gray 2009). To enrich these images, many institutions work with standardised formats such as IIIF, preserving as much of the source’s information as possible. To take full advantage of textual documents, an image alone is not enough. Thanks to automatic text recognition technology, it is now possible to extract images’ content on a large scale. The TEI seems to provide the perfect format to capture both an image’s formal and textual data (Janès et al. 2021). However, this poses a problem. To ensure compatibility with a range of use cases, TEI XML files must guarantee IIIF or RDF exports and therefore must be based on strict data structures that can be automated. But a rigid structure contradicts the basic principles of philology, which require maximum flexibility to cope with various situations. The solution proposed by the Gallic(orpor)a project1 attempted to deal with such a contradiction, focusing on French historical documents produced between the 15th and the 18th c. It aims to enrich the digital facsimiles distributed by the French National Library (BnF).
Unterwegs zum Text ohne Herausgeber und ohne Leser. Eine medienpragmatische und medientheoretische Standortbestimmung der digitalen Edition.
Braun, M.; Glauch, S.; and Kragl, F.
In Jannidis, F., editor(s),
Digitale Literaturwissenschaft: DFG-Symposion 2017, of Germanistische Symposien, pages 281–305. J.B. Metzler, Stuttgart, 2022.
Paper
doi
link
bibtex
abstract
@incollection{braun_unterwegs_2022,
address = {Stuttgart},
series = {Germanistische {Symposien}},
title = {Unterwegs zum {Text} ohne {Herausgeber} und ohne {Leser}. {Eine} medienpragmatische und medientheoretische {Standortbestimmung} der digitalen {Edition}},
isbn = {978-3-476-05886-7},
url = {https://doi.org/10.1007/978-3-476-05886-7_12},
abstract = {Die Digitalität bestimmt zunehmend auch die geisteswissenschaftliche Edition, wobei der Computer nicht mehr nur als Hilfsmittel und das Internet nicht mehr nur als Datenspeicher dienen. Vielmehr werden die Editionen von vorneherein als Online-Editionen konzipiert. Die Bedingungen, denen sie dann unterliegen, werden allerdings nur selten explizit benannt. Hier setzt der Beitrag an, indem er, basierend auf einer Sichtung aktueller digitaler Editionen, diesen revolutionären Umbruch medienpragmatisch reflektiert. In den Blick genommen werden die Vorgaben, die das digitale Medium der Edition macht; die Möglichkeiten, die es ihr bietet; seine Auswirkungen auf Textkritik und Textherstellung; sowie die Chancen, aber auch Herausforderungen für die Rezipienten. Zuletzt versucht der Beitrag, in die Zukunft zu schauen und zu überlegen, wie sich digitales Edieren und digitales Lesen gestalten werden, wenn vorhandene, gerade auch maschinelle Techniken eingesetzt und weitere, neue entwickelt werden.},
language = {de},
urldate = {2023-08-31},
booktitle = {Digitale {Literaturwissenschaft}: {DFG}-{Symposion} 2017},
publisher = {J.B. Metzler},
author = {Braun, Manuel and Glauch, Sonja and Kragl, Florian},
editor = {Jannidis, Fotis},
year = {2022},
doi = {10.1007/978-3-476-05886-7_12},
pages = {281--305},
}
Die Digitalität bestimmt zunehmend auch die geisteswissenschaftliche Edition, wobei der Computer nicht mehr nur als Hilfsmittel und das Internet nicht mehr nur als Datenspeicher dienen. Vielmehr werden die Editionen von vorneherein als Online-Editionen konzipiert. Die Bedingungen, denen sie dann unterliegen, werden allerdings nur selten explizit benannt. Hier setzt der Beitrag an, indem er, basierend auf einer Sichtung aktueller digitaler Editionen, diesen revolutionären Umbruch medienpragmatisch reflektiert. In den Blick genommen werden die Vorgaben, die das digitale Medium der Edition macht; die Möglichkeiten, die es ihr bietet; seine Auswirkungen auf Textkritik und Textherstellung; sowie die Chancen, aber auch Herausforderungen für die Rezipienten. Zuletzt versucht der Beitrag, in die Zukunft zu schauen und zu überlegen, wie sich digitales Edieren und digitales Lesen gestalten werden, wenn vorhandene, gerade auch maschinelle Techniken eingesetzt und weitere, neue entwickelt werden.